期刊
  出版年
  关键词
结果中检索 Open Search
Please wait a minute...
选择: 显示/隐藏图片
1. 基于稳定性语义聚类的相关模型估计
孙芯宇, 吴江, 蒲强
计算机应用    2016, 36 (5): 1313-1318.   DOI: 10.11772/j.issn.1001-9081.2016.05.1313
摘要377)      PDF (1012KB)(356)    收藏
针对由不稳定聚类估计的相关模型影响检索性能的问题,提出了基于稳定性语义聚类的相关模型(SSRM)。首先利用初始查询前 N个结果文档构成反馈数据集;然后探测数据集中稳定的语义类别数量;接着从稳定性语义聚类中选择与用户查询最相似的语义类别估计SSRM;最后通过实验对模型的检索性能进行了验证。对TREC数据集5个子集的实验结果显示,SSRM相比相关模型(RM)、语义相关模型(SRM),平均准确率(MAP)性能最少提高了32.11%和0.41%;相比基于聚类的文档模型(CBDM)、基于LDA的文档模型(LBDM)和Resampling等基于聚类的检索方法,MAP性能最少提高了23.64%,19.59%和8.03%。实验结果表明,SSRM有利于改善检索性能。
参考文献 | 相关文章 | 多维度评价
2. 一种Web主题文本通用提取方法
蒲强 李鑫 刘启和 杨国纬
计算机应用   
摘要1722)      PDF (556KB)(855)    收藏
为构建大规模中文文本语料库,提出了一种简单、有效、通用的中文Web主题文本提取方法。该方法巧妙地利用中文文本长度和标点符号序列,配合少量判别规则,便可准确地将主题文本从网页中提取出来。由于本方法不涉及具体的HTML标记分析,其通用性较强。实验结果表明该提取方法具有快速性和准确性,达到了构建大规模中文文本语料库的要求。
相关文章 | 多维度评价